4.3 Equidad: la importancia de los sesgos

El sesgo se puede definir como el resultado de dar un peso desproporcionado a favor o en contra de una persona o cosa en comparación con otra, y normalmente de manera injusta. El término “equidad” se utiliza precisamente para tratar de que las decisiones no estén afectadas por esos sesgos. Si se analiza la literatura al respecto, se pueden encontrar multitud de tipos de sesgos. En la ciencia de datos, cuando se habla de sesgo, generalmente se hace referencia a los sesgos algorítmicos. Estos, según la RAE, son “errores sistemáticos en los que se puede incurrir cuando, al hacer muestreos o ensayos, se seleccionan o favorecen unas respuestas frente a otras”. En la Fig. 4.1 donde se representan los distintos pasos a la hora de diseñar un algoritmo de ciencia de datos, se puede ver cuáles son los momentos críticos en los que, sin percibirlo, se puede caer en este tipo de sesgo. En primer lugar, un sesgo en la adquisición de los datos, partiendo de muestras que ya lo tengan. En este punto se encuadran, por ejemplo, los sesgos históricos o los sesgos de representación. También puede haber sesgos de medida, que son los sesgos algorítmicos derivados de la selección de las características que se eligen para la construcción del modelo. Además, se pueden presentar sesgos en el momento del despliegue, denominados sesgos de implementación, que suceden cuando el contexto en el que se despliega el algoritmo es diferente del contexto en que se entrenó.

Este sesgo algorítmico puede darse en cualquiera de los pasos que lleva a cabo el científico de datos (véase Cap. 2).¹ En la Fig. 4.1 donde se representan los distintos pasos a la hora de diseñar un algoritmo de ciencia de datos, se puede ver cuáles son los momentos críticos en los que, sin percibirlo, se puede caer en este tipo de sesgo. En primer lugar, un sesgo en la adquisición de los datos, partiendo de muestras que ya lo tengan. En este punto se encuadran, por ejemplo, los sesgos históricos o los sesgos de representación. También puede haber sesgos de medida, que son los sesgos algorítmicos derivados de la selección de las características que se eligen para la construcción del modelo. Además, se pueden presentar sesgos en el momento del despliegue, denominados sesgos de implementación, que suceden cuando el contexto en el que se despliega el algoritmo es diferente del contexto en que se entrenó.

Es estudio detallado de estos sesgos sesgos algorítmicos está enfocado a evitar que se aumenten o perpetúen sesgos de cualquier tipo, teniendo en cuenta que los algoritmos tienen como objetivo automatizar y generalizar. Como se veía en la sección anterior, mucha de la regulación que se está desarrollando en Europa va enfocada a mantener el principio de equidad, es decir, a tratar de evitar los sesgos en la toma de decisiones automáticas realizadas por los algoritmos que se diseñan gracias a la ciencia de datos.

Figura 4.1: Sesgos en el proceso de m a c h i n e l e a r n i n g . Fuente: Adaptada de IBM.

Un ejemplo, que muestra la importancia de los sesgos históricos y de representación, es COMPAS (Correctional Offender Management Profiling for Alternative Sanction), una aplicación que da soporte al sistema de justicia americana y que utiliza un algoritmo para evaluar el riesgo potencial de reincidencia de una persona que va a ser juzgada.

COMPAS evalúa, para cada acusado, dos tipos de riesgo: de reincidir y de reincidir con violencia. El algoritmo que utiliza califica de 1 a 10 la posibilidad de que el acusado vuelva a cometer un delito (sin y con violencia). De 1 a 4, el riesgo se califica de bajo; de 5 a 7, medio; y de 8 a 10, alto. Si la persona puede ser reincidente espera a que ocurra el juicio en la cárcel, y, en organizaciones analizaron los datos y no parecía que hubiera ningún problema de sesgo inicialmente. Sin embargo, la organización PROPUBLICA, con datos de 7.300 personas correspondientes a 2013 y 2014, demostró que la aplicación estaba sesgada. En concreto, demostró que los acusados negros tenían muchas más probabilidades que los acusados blancos de ser clasificados, incorrectamente, como de riesgo de reincidencia elevado, mientras que los acusados blancos tenían más probabilidades que los acusados negros de ser marcados incorrectamente como de riesgo bajo.

El proceso que se siguió fue el siguiente:

Partiendo del proceso de asignación de un riesgo, se construyó el historial delictivo del acusado.
Para determinar la raza, se usó la clasificación establecida, de negros, blancos, hispanos y asiáticos.
Se revisó la definición de reincidencia y cómo se establecían los riesgos en la aplicación de COMPAS.
Únicamente se analizaron los riesgos para “reincidencia” y “reincidencia con violencia”.
Se analizaron los índices de reincidencia y de reincidencia con violencia en dos años, así como su distribución por raza.
Para contrastar la hipótesis de disparidad entre razas en el índice de riesgo, se utilizó una regresión logística que consideraba la raza, la edad, la historia criminal, la reincidencia futura, el grado de los cargos y el género.
Para evaluar la exactitud del algoritmo se usó una regresión de Cox.
Se utilizó una muestra de unos 7.300 acusados (de los que se tenía datos de dos años) para analizar la tasa de falsos positivos y falsos negativos.

El modelo logístico concluyó que el factor más predictivo de una puntuación de riesgo de reincidencia más alta era la edad. Los acusados menores de 25 años tenían 2,5 veces más probabilidades de obtener una puntuación más alta que los delincuentes de mediana edad, incluso cuando en el modelo se incluía como variable de control el número de los delitos anteriores, la delincuencia futura, la raza y el género. La raza también se consideró muy predictiva de una puntuación más alta. Si bien los acusados negros tenían tasas de reincidencia más altas en general, cuando se ajustaron por esta diferencia y otros factores, tenían un 45% o más de probabilidades de obtener una puntuación más alta que los blancos. En cuanto al sexo, las mujeres tenían un 19,4% más de probabilidades de obtener una puntuación más alta que los hombres, controlando los mismos factores. Esta conclusión resulta, cuando menos, sorprendente, dado que los niveles de criminalidad de las mujeres era, en general, más bajos que los de los hombres.

La herramienta predecía bien el riesgo de reincidencia en el 60% de los casos estudiados, pero solo en el 20% de ellos cuando se trataba del riesgo de reincidir con violencia. La Tabla 4.1 resume las principales conclusiones obtenidas en el estudio de PROPUBLICA.

Tabla 4.1: Principales conclusiones del estudio de PROPUBLICA
Casuística en el estudio con datos de dos años	Resultados en porcentaje
A los acusados de raza negra se les asignaba un riesgo más alto de reincidencia A los acusados de raza blanca se les asignaba un riesgo más bajo de reincidencia que a los de raza negra Mayor asignación de riesgo de reincidencia a las personas de raza negra Se determinó que las variables que tenían mayor importancia para la asignación de riesgo de reincidencia eran la edad, la raza y el género	Raza negra: 45% Raza caucásica: 23% 28% a los de raza blanca 48% a los de raza negra 77% más de riesgo de reincidir a las personas de raza negra que a las de raza blanca <25 años tenía 2.5 veces más de probabilidad de ser asignado un riesgo alto 45% si eran de raza negra Casi un 20% si la persona era mujer

En este caso, el problema del sesgo tiene como consecuencia que personas que no reincidirían permanezcan en la cárcel al asignárseles un índice de reincidencia más alto que el que realmente les corresponde, y que personas que sí podrían reincidir quedarían en libertad por asignárseles un índice más bajo del que realmente tienen.

Hay multitud de ejemplos publicados respecto al tema de los sesgos. Una de las mejores referencias es O’Neil (2016), que recopila una gran variedad de casos en la que los sesgos pueden llevar a toma de decisiones erróneas y no equitativas.

Footnotes

https://www.ibm.com/blogs/research/2018/09/ai-fairness-360/↩︎